NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion：基于自回归扩散的文本生成

Original 让你更懂AI PaperWeekly

2024-08-22

扩散模型因其卓越的性能在图像生成领域引起了广泛关注。最近，它们的成功被扩展到文本生成，通过同时生成序列中的所有 token。然而，与图像相比，自然语言展现出更为明显的顺序依赖性，而现有大多数语言模型都是通过从左到右的自回归方法进行训练的。为了考虑自然语言固有的顺序特性，我们引入了自回归扩散（AR-DIFFUSION）。

AR-DIFFUSION 确保右侧 token 的生成依赖于左侧生成的 token，这一机制是通过使用根据 token 位置变化的动态去噪步骤数来实现的。这使得左侧的 token 经历的去噪步骤较少，从而使它们能够更早地生成并随后影响右侧 token 的生成。在各种文本生成任务上的一系列实验中，包括文本摘要、机器翻译和常识生成，AR-DIFFUSION 明显表现出其优越性，且在实现可比较的结果时速度可提高 100 倍至 600 倍。

论文标题：

AR-DIFFUSION: Auto-Regressive Diffusion Model for Text Generation

论文地址：

https://arxiv.org/pdf/2305.09515.pdf

代码地址：

https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion

Introduction

文本生成是自然语言处理（NLP）领域中的一个基本任务。像 GPT-4、LLaMA 和 Alpaca 这样的预训练语言模型以其生成流畅且类似人类的文本内容的能力引起了广泛关注。这些模型利用自回归（AR）Transformer 解码器，按照从左到右的顺序逐个生成 token。通过利用位置依赖性的力量，AR 模型能够增强生成文本的自然性、连贯性和遵循人类语言规范。

最近的研究表明，扩散模型在图像生成方面表现出卓越的性能，激发了研究人员将扩散方法扩展到文本生成领域的动力。通过引入时间步，这些方法逐步调节原始 token 与高斯噪声之间的插值，然后迭代地进行去噪以进行文本生成。在每个时间步，基于扩散的文本生成器遵循非自回归（NAR）原则同时预测所有 token，相较于 AR，具有更快的解码速度。然而，它也继承了 NAR 的缺点，即牺牲了 token 之间的位置依赖性和生成性能下降。

▲ 图 1：在一个二维坐标系统上展示模型的行为，其中水平轴代表位置，垂直轴表示扩散时间步。

在推断阶段，不同的模型将表现不同。（a）对于典型的 Diffusion-LM，每个 token 共享相同的运动速度：。（b）从扩散模型的角度来看，AR 模型根据原始 token 和高斯噪声之间的插值程度具有两种状态：待解码（在时间步）和已解码（在时间步）。

具体而言，我们有和。（c）在 AR-DIFFUSION 中，是锚点的坐标。不同位置的 token 展示出不同的运动速度，例如当时，。

为了进行全面的分析，我们引入了一个二维坐标系统来跟踪位于不同位置的 token 的扩散时间步。如图 1 所示，该系统将 token 位置分配给水平轴，将扩散时间步分配给垂直轴。图 1（a）展示了 Diffusion-LM，这是现有基于扩散的文本生成模型所采用的方法。它为所有 token 分配了统一的时间步。

相反，图 1（b）中的 AR 模型在生成步骤内展示了不同的时间步（）token。例如，位置上已解码的 token 具有时间步，而位置上待解码的 token 具有时间步。这种方法有效地捕捉了顺序依赖性。受到这一观察的启发，我们引入了 AR-DIFFUSION，一种自回归扩散方法，以适应 token 位置的差异和顺序 token 识别的原则。

在 AR-DIFFUSION 中，我们提出了一种多级扩散策略，包括句子级和 token 级的扩散。我们随机选择一个句子级的时间步长，并通过确定每个 token 的位置敏感 token 级时间步长来分配动态运动速度。这使得句子左侧的 token 能够更快地从随机高斯噪声转化为 token 嵌入，而句子右侧的 token 则经历较慢的移动，以更好地利用先前去噪的 token 的信息。

在推断过程中，为了减少 Diffusion-LM、SeqDiffSeq 和 GENIE 等模型所需的大量推断步骤（例如 2,000 步），我们引入了一个 Skipping 机制，与多级扩散策略协作以加速该过程。

Methodology

Experiments

Case Study

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion：基于自回归扩散的文本生成

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

生成图片，分享到微信朋友圈

NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion：基于自回归扩散的文本生成

您可能也对以下帖子感兴趣